Introducción

Un censo es el procedimiento de adquisición y registro sistemático de información sobre los miembros de una población determinada. El censo es una actividad especial y de amplio alcance, que tiene lugar una vez cada diez años en todo el país. Su finalidad es reunir información sobre la población en general, a fin de presentar un panorama completo y fiable de la población del país: sus condiciones de vivienda y sus características demográficas, sociales y económicas. La información recogida incluye datos sobre edad, sexo, país de origen, estado civil, condiciones de vivienda, matrimonio, educación, empleo, etc. Este dataset muestra datos de 1994.

Explicación de variables

El conjunto de datos proporciona 15 variables de entrada que son una mezcla de tipos de datos categóricos, ordinales y numéricos. La lista completa de variables es la siguiente:

Importar paquetes

Importar dataset

Podemos observar como los datos perdidos o nulos en este dataset estan marcado con el valor "?". Estos datos los encontramos en las variables: "workclass", "occupation" y "native-country".

Observamos el tipo de variables que presenta el dataset.

Podemos observar un total de 15 columnas y 48842 filas.

Comprobación de datos unicos por variables en nuestro dataset. Podemos descargar la variable "race", que muestra la raza de los individuos. A continuación comprobaremos sus variantes.

Dentro de la variable "race" encontramos los valores: 'Black', 'White', 'Asian-Pac-Islander', 'Other','Amer-Indian-Eskimo'. Un total de 5 razas distintas.

Limpieza de datos

Comprobación de datos nulos.

Como hemos podido observar nos encontramos con 0 datos nulos, hay que tener en cuenta que en el dataset los datos nulos se encuentras con el valor "?", en nuestro caso, vamos a proceder a hacer el cambio de estos valores a los mas usados en su variable, con el fin de que no interfieran en el estudio.

Se han sustituidos los valores nulos o perdidos en las columnas de "workclass", "occupation" y "native-country" por los valores más frecuentados en su variable. A continuación vamos a comprobar si las modificaciones han sido correctas.

El método describe devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Como puntos a destacar podemos observar una media de edad en el dataset de 39 años.

Análisis Gráfico

El mapa de calor es una forma de representar los datos en una forma bidimensional. Los valores de los datos son representados como colores en el gráfico. La meta del mapa de calor es proporcionar un resumen visual a color de la información.

Se aprecia una baja relación entre todas las variables, teniendo importancia la relación entre el nivel de estudios con el capital ganado y las horas trabajadas a la semana.

De forma predeterminada, esta función creará una cuadrícula de ejes de manera que cada variable numérica compartirá entre los ejes y en una sola fila y los ejes x en una sola columna. Las gráficas diagonales se tratan de manera diferente: se dibuja una gráfica de distribución univariante para mostrar la distribución marginal de los datos en cada columna.

En el siguiente g´rafico, se observa la distribución de la variable estado civil. Presenta 6 categorías, el marido tiene el porcentaje máximo (40,37%) entre todas las categorías, seguido de los no familiares (25,76%).

Así mismo, se representa como se distribuye la edad de nuestro dataset, estando la mayor parte de los datos en menos de 50 años de edad.

Concretamente tenemos 38168 observaciones con edad menor de 50 años, mientras que el resto ( 9808 observaciones) se encuentran por encima de 50 años de edad.

En el caso de horas por semana trabajadas, refleja el siguiente histograma.

Dónde la mayor cantidad de horas trabajadas se encuetean en el intervalo de 30 a 40 años de edad.

A continuación mostramos histogramas de frecuencia sobre el capital ganado y perdido. Encontrándose ambos en la primera parte del gráfico.

Por ende, incluimos ambas variables en un mismo gráfico de puntos, con el fin de facilitar las observaciones.

Como último estudio gráfico, se refleja la relación de ingresos (más o menos de 50.000$) con la edad.

Se aprecia en color azul los ingresos superiores a 50k, mientras en color naranja menores a 50k. En las edades más jóvenes, como es de esperar, los ingresos son menores, mientras que a medida que aumenta la edad, aumenta el ingreso.

Como punto final, se ha generado un informe de perfil. “Pandas Profiling” crea reportes de perfil a partir de un Pandas Dataframe, con la finalidad de observar con mayor facilidad los datos.